MAGE: El bloque All-[MASK] sabe dónde mirar en difusión por bloques LLM
Con MAGE, la atención dispersa acelera hasta 6.82x la inferencia en contexto largo sin pérdida de precisión.
Con MAGE, la atención dispersa acelera hasta 6.82x la inferencia en contexto largo sin pérdida de precisión.